0%

(ICCV 2017) DeepCoder:Semi-Parametric Variational Autoencoders for Automatic Facial Action Coding

Keyword [Facial Action Units]

Linh Tran D, Walecki R, Eleftheriadis S, et al. DeepCoder: Semi-Parametric Variational Autoencoders for Automatic Facial Action Coding[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 3190-3199.



1. Overview


人脸表情可以编码成一系列的面部活动单元(facial action units, AUs)及其对应的活动强度(intensity). 而变分自编码器(VAE)能够通过无监督学习(重构loss+KL loss)提取数据的隐含表达(latent representation)。因此,对于人脸AU强度估计的任务可分为两个步骤

  • 利用VAE提取人脸特征
  • 使用分类器对特征进行AU活动强度估计

另一方面,non-parametric方法(如Gaussian Process)的效果优于parametric,但该方法只适用于小样本数据,无法很好地处理大样本数据。因此,论文将两者进行结合,提出semi-parametricDeepCoder框架

  • parametric VC-AE (Variational Convolutional AEs)
  • non-parametric VO-GPAE (Variational Ordinal GP AEs)
    并在DISFAFERA2015数据集上进行实验验证。



1.1. FACS

Facial Action Coding System 定义30多个面部肌肉活动单元,及其活动强度评分标准。



2. 框架结构


2.1. VC-AE

包含两部分loss

  • KL loss (Z0)
  • reconstruction loss (x->Z0->x’)



实验中使用warming strategy, 额外加入了AU强度估计loss



2.2. VO-GPAE

包含三部分loss

  • KL loss (Z0)
  • reconstruction loss (Z0->Z1->Z0)
  • 强度估计loss (Z1->Y)


2.3. Joint Learning

Loss function



VO-GPAE中的covariance function计算量会随着数据量的增多而增加,因此论文提出leave-subset-out策略,将训练集X分为不相交的两个子集X_R和X_L. X_R用于训练VC-AE, X_L用于训练VO-GPAE, 且X_R>>X_L.



3. Experiments


  • NLPD negative log-predictive density for reconstruction error
  • ICC intra-class correlation, agreement between annotators


在Z1空间中模型将每个点都fit到一个独立的cluster中,从而使得对Z1空间上的特征进行AU强度估计效果更好。